处方工艺DOE之我见(系列之一)
DOE(Design of Experiment),已经不是什么新鲜的词汇了,早在六西格玛时代就普及的比较厉害,不过对于国内工业界来说,随着时间、时机的逐步成熟,三类人对DOE的使用帮助这个工具变得越来越普及。
海归派 这类人长期工作于国外院校、工业界、学术界,之后或学成归国寻求发展,或直接被外聘进入国内。使用工具:JMP。
六西格玛派 由早期工业界各行业中专注于传统工业统计的人物组成,称他们为各种工程师比较合适。使用工具:minitab。
学生 出于课题的需要,他们往往找到几篇文章就模仿其中的设计去实施,一直受困于不知如何进行结果的分析。使用工具:design expert。
一般来说,以上三种软件就是目前大部分人使用DOE工具的载体。当然,我所知道的DOE软件不下7、8种,比如还有MODDE、Statistica,等等。有兴趣的朋友们可以自行百度,其DOE的能力完全不亚于以上三种,但由于受限于推广和使用的群体,普通大众知之甚少罢了。
很多朋友会有疑问:
1. 该如何选择一款DOE软件作为使用工具呢?
以上几款软件都可以,选择其中一种即可。各软件之间的功能几乎大同小异,没有哪个比哪个更好、更优。你可以喜欢JMP的图形化交互界面,也可以喜欢minitab的学院派风格,也可以喜欢design expert的专注。总之,你喜欢用哪一款就用哪一款。只需要掌握一种即可,你我时间都有限。
2. 三个大的误区?
2.1 可以显著降低实验量
看起来似乎很美好的一件事。能够降低实验量?这该是多好的设计!不过,别高兴太早,先评估下团队的实验误差(噪声)吧。如果本身误差(实验误差+检测误差)就比较大,相信稍微多加几个实验量,不论是你还是老板都会更放心结果。
一句话:少做,你得有资本。
2.2 简单的交互就能知道结果
经常看到这样的话语,似乎DOE真的很简单,只要会软件,点一下就能知道结果,甚至有些软件,直接跳过残差、cooks distance等等而告诉各位用户那几个因子是显著、不显著,然后马上后面跟一系列优化…
但是,现实是如果真这么做了,又这么想了,那真是完蛋了。任何的实验设计,背后都有一系列的假设前提:残差是不是随机分布?是不是正态?有没有异常值?如何判断异常值?P值是否真的可信(0.05行不行?0.049呢?0.051呢?),等等,这些都是在做分析之前需要首先(着重)关注的,想想您自己是不是做DOE之前忽略了这些个考虑?所以,以后后期再出现很多失拟及异常结果无法分析了的时候,您就很容易想通了,是吧?
2.3 我需要掌握很多设计方法吗?
No!只需要掌握两种设计方法:析因设计(部分析因、完全析因)及田口设计。
设计万万千千,需要掌握什么样的设计呢?
好问题!接下来,我来列举下现有的设计。
1. 常规设计(不少书里喜欢写成“经典设计”)
英文:regular two-level factorial design。也叫析因设计(包括完全析因、部分析因),联想一下QBD那两个案例:速释和缓释,大众绝对不陌生。
优缺点如下:
优点:使用方便,理论依据久远,网上教育视频一大波,就算再不懂DOE的客户,一句:这是完全析因…也能缩短彼此间的距离。
缺点:实验量相对较大。
2. Plackett-Burman设计(简称PB设计)
从上世纪60、70年代一直风靡到现在,至今还有很多朋友经常论坛里会问我这个设计怎么样、如何使用,等等问题。
我想说:不到万不得已,不要用这个设计。因为这个设计先天不足。这只是一个分辨力3的设计(分辨力的概念,不明白的可以自行百度或者看闵亚能的那本书):主效应和二阶交互混淆的设计。通俗的来说:你以为你在筛选主效应,其实主效应未必只是它自己,还有其它二阶交互的小伙伴。这样,导致即使筛选出主效应,那也未必真的是主效应。(有点绕口,多看几遍自然懂)
再举个例子:分辨力4和分辨力3的析因设计的区别,这下明白了吧。除非资源特别紧张,否则不会考虑该设计。重要的事说三遍!慎用,慎用,慎用!
优点:教程多,实验量少,如果确定没有二阶交互的影响或者很小很小,这个就是利器。
缺点:被滥用的设计,分辨力只有3,却被无视。
3. Response Surface
一样的源远流长,实验量非常巨大和混料设计排行一、二。
包括:中心设计、box-behnken、miscellaneous,等等,单就响应曲面设计这一个大类,就足以写一本书(国外响应曲面的书并不少,有兴趣可自行百度)。但这些都不在我们考虑的范围内。我们只要知道有这一类的设计即可。一般情况下,咱们不会做这个。
优点:除了主效应、还包含二阶效应、平方项等,可以说,是一个非常综合全面的设计,可以理解成:全面。很多书,包括软文的作者都会说的一个词:序贯。指的就是先做一个析因设计,从大多数因子里获得少数因子,然后对少数因子(2、3、4)个做一个响应曲面设计。
缺点:实验量巨大,3因子就是17-19个实验,除非前期(析因)结果有显著弯曲,否则一般不会考虑做这个。当然,你要发文章除外。
4. 混料设计
如响应曲面设计一样,混料设计也是一个大的设计范畴,包含screening、simplex lattice、simplex centroid…(什么?英文不熟悉,好吧,中文就是单纯形重心设计、单纯形格点设计、极端定点设计),当然还包括ABCD设计、空间填充设计,等等。
看起来是不是眼花缭乱呢?不用着急,咱们目前工业界的设计 一般只考虑到 主效应、二阶交互效应以及少量的平方项,对于更高阶项的影响,目前可以无视。
混料设计在什么地方用的比较多呢?答案是配方选择,因为配合的总和是100%。而我们常规对处方的筛选经常用的还是析因设计,这个优劣各位自己去评判、选择。
优点:对于配方的原辅料组成研究,很好的加了个约束条件:总和100%;内容非常全面,能考察的项不仅仅是主效应、二阶交互、平方项,甚至是更高阶的项都可以。包含信息量最全面的设计方法。
缺点:实验量最大,无论对物力、人力还是时间,都是巨大的考验。
5. 确定性筛选设计
这个设计最早的时候由JMP公司的Jones and Nachtsheim于2011年提出的。算是兼顾了析因设计、响应曲面的优点:实验量比响应曲面小,比析因设计大,可以识别主效应、平方项,部分的二阶交互(持保守态度)。
在minitab和design expert里,主要用于筛选(主效应+平方项),在jmp里,可以考虑部分二阶交互(需要牺牲某些特征,分析略复杂,解释性较差)。
优点:兼顾传统设计,介于中间的实验量就能很好的考察主效应和平方项,甚至某些二阶交互项。
缺点: 主效应+平方项(100%没问题),二阶交互(慎重)。
以上就是目前大多数遇到的常用设计。
有朋友说了,那么多设计,我该如何去选择呢?
答案很简单,还是那一句话:
只需要掌握:析因设计(部分析因、完全析因)及田口设计。
未完待续
更多精彩内容
下回分解!~
夏彬 统计SME
工程师、医学硕士、LeanSigma黑带大师、国际知名统计学软件公司程序测试员。现任上海合全药业制剂项目部组长,负责业务相关数据工作,指导和参与二十余个QbD & DoE项目的设计、开展和统计分析。内容包括:传统统计、实验设计、数据挖掘、机器学习技术等开发和应用。精通Minitab、JMP、Design Expert、Python等软件。迄今,发表核心期刊论文10篇;专利33项(其中11项已授权)。
推 荐 阅 读
▼
原创首发 | 从疫苗事件看当今制药工艺设计
欢迎联系我们!drugtimes@qq.com